Enfoque de Aprendizaje Automático para la Estimación de la Constante de la Ley de Henry Basado en Descriptores Moleculares
Autores: Ullah, Atta; Shaheryar, Muhammad; Lim, Ho-Jin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Enfoque de Aprendizaje Automático para la Estimación de la Constante de la Ley de Henry Basado en Descriptores Moleculares
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Astronomía
Palabras clave
Constante de la ley de Henry
Compuestos orgánicos
Relación cuantitativa estructura-propiedad
Modelo de aprendizaje automático
Datos experimentales
Descriptores moleculares
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 6
Citaciones: Sin citaciones
En la química atmosférica, la constante de la ley de Henry (HLC) es crucial para entender la distribución de compuestos orgánicos a través de fases gaseosas, partículas y acuosas. Los modelos de relación estructura-propiedad cuantitativa (QSPR) descritos en la investigación científica generalmente están adaptados a grupos o categorías específicas de sustancias y a menudo se desarrollan utilizando un conjunto limitado de datos experimentales. Este estudio desarrolló un modelo de aprendizaje automático utilizando un extenso conjunto de datos de HLC experimentales para aproximadamente 1100 compuestos orgánicos. Se utilizaron descriptores moleculares calculados con el software alvaDesc (v 2.0) para entrenar los modelos. Se adoptó un enfoque híbrido para la selección de características, asegurando la alineación con el conocimiento del dominio. Basado en el error cuadrático medio (RMSE) de los datos de entrenamiento y prueba después de la validación cruzada, se seleccionó el Gradient Boosting (GB) como modelo para predecir el HLC. Los hiperparámetros del modelo seleccionado se optimizaron utilizando el marco de optimización automática de hiperparámetros Optuna. El impacto de las características en la variable objetivo se evaluó utilizando las Explicaciones Aditivas de SHapley (SHAP). El modelo optimizado demostró un fuerte rendimiento en los conjuntos de datos de entrenamiento, evaluación y prueba, logrando coeficientes de determinación (R) de 0.96, 0.78 y 0.74, respectivamente. El modelo desarrollado se utilizó para estimar el HLC de compuestos asociados con las emisiones de captura y almacenamiento de carbono (CCS) y aerosoles orgánicos secundarios.
Descripción
En la química atmosférica, la constante de la ley de Henry (HLC) es crucial para entender la distribución de compuestos orgánicos a través de fases gaseosas, partículas y acuosas. Los modelos de relación estructura-propiedad cuantitativa (QSPR) descritos en la investigación científica generalmente están adaptados a grupos o categorías específicas de sustancias y a menudo se desarrollan utilizando un conjunto limitado de datos experimentales. Este estudio desarrolló un modelo de aprendizaje automático utilizando un extenso conjunto de datos de HLC experimentales para aproximadamente 1100 compuestos orgánicos. Se utilizaron descriptores moleculares calculados con el software alvaDesc (v 2.0) para entrenar los modelos. Se adoptó un enfoque híbrido para la selección de características, asegurando la alineación con el conocimiento del dominio. Basado en el error cuadrático medio (RMSE) de los datos de entrenamiento y prueba después de la validación cruzada, se seleccionó el Gradient Boosting (GB) como modelo para predecir el HLC. Los hiperparámetros del modelo seleccionado se optimizaron utilizando el marco de optimización automática de hiperparámetros Optuna. El impacto de las características en la variable objetivo se evaluó utilizando las Explicaciones Aditivas de SHapley (SHAP). El modelo optimizado demostró un fuerte rendimiento en los conjuntos de datos de entrenamiento, evaluación y prueba, logrando coeficientes de determinación (R) de 0.96, 0.78 y 0.74, respectivamente. El modelo desarrollado se utilizó para estimar el HLC de compuestos asociados con las emisiones de captura y almacenamiento de carbono (CCS) y aerosoles orgánicos secundarios.